O projekcie

Ten projekt składa się z dwóch części: 1. Historyczne wyniki polskiej reprezentacji w Pucharze Świata, 2. Jak daleko trzeba skoczyć aby wygrać zawody? - czyli analiza długości skoków w zawodach Pucharu Świata.

Pierwsza część skupia się na historycznej analizie wyników polskiej reprezentacji w skokach narciarskich w Pucharze Świata w latach 1994-2025. Obejmuje więc zarówno “Erę Małysza” jak i lata późniejsze, aż do teraźniejszości.

W drugiej częśći projektu staram się pokazać potencjał drzemiący w stworzonym przeze mnie zbiorze danych, zawierającym szczegółowe informacje o przeszło 2 i pół tysiącach skoków narciarskich. Analizowane są głównie długości skoków w różnych zawodach Pucharu Świata na przestrzeni kilku sezonów. Na końcu tej części staram się odpowiedzieć na pytanie: “jak daleko należy skoczyć w konkursie aby zająć 1 (lub inne) miejsce?”.


Część 1: Historyczne wyniki polskiej reprezentacji w Pucharze Świata


Wstęp

Ostatnimi czasy wśród kibiców polskiej reprezentacji w skokach narciarskich panuje pesymizm i nostalgia do czasów nieodwracalnie minionych. Osobiście zawsze jestem zwolennikiem merytorycznej krytyki i prób znalezienia optymalniejszych rozwiązań. Nie jestem w stanie jednak zrozumieć hejtu, który wylewa się obecnie na sportowców, którzy całe swoje życia poświęcają tej dyscyplinie i robią co mogą, aby osiągnąć jak nalepsze wyniki.

Wiele opinii kibiców nie jest podparta żadnymi analizami, dlatego postanowiłem zająć się tym tematem i odpowiedzieć na pytanie - “Czy z polskimi skokami faktycznie jest aż tak źle?”

W tym celu zescrapowałem ze strony skokinarciarskie.pl zarówno historyryczne klasyfikacje generalne Pucharu Świata poczynając od 1994 roku, jak i klasyfikację obecnie trwającego cyklu.

Analizując poniższe wykresy warto pamiętać o tym, że obecnie liczba konkursów wchodzących w skład Pucharu Świata zwiększyła się w stosunku do tego, co było dawniej. W związku z tym zwiększyła się też pula punktów do zdobycia. Z drugiej jednak strony pojawiają się liczne głosy, że poziom PŚ stale rośnie, a więc punkty są coraz trudniejsze do zdobycia. Moja analiza nie uwzględnia tych czynników.


Porównanie Ery Małysza i Ery Stocha

Wykres 1

Na wykresie wyraźnie widać wybuch formy Adama Małysza w sezonie 2000/01, który zapoczątkował Małyszomanię.

Widać też, że “Złotą Erą” polskich skoków był okres 2016-2023 i że obecnie faktycznie jest gorzej niż w tych latach, lecz wcale nie najgorzej w kontekście całego rozważanego okresu.

(Należy pamiętać, że sezon 2024/2025 wciąż trwa i liczba zdobytych w nim punktów jeszcze wzrośnie).


Trenerzy kadry a wyniki

Wykres 2

Na wykresie, począwszy od sezonu 1999/2000 zaznaczyłem pierwszych trenerów kadry A w danych okresach.

Widać jak przejęcie kadry przez Tajnera zbiegło się z przełomem w wynikach Adama Małysza. Widać również progres wielu polskich skoczków po przejęciu kadry przez Horngachera.

Ciekawą zależnością jest też to, że często po zmianie trenera kadra zaczyna osiągać lepsze wyniki. Jest tak w sezonach: 99/00, 04/05, 16/17, 22/23. Widzę dwa prawdopodobne wyjaśnienia tego zjawiska: 1. Nowo zatrudniony trener wprowadza nowe metody treningowe i “powiew świeżości” przez co skoczkowie zaczynają lepiej skakać 2. Trenera zwalnia się po wyjątkowo nieudanym sezonie. Oczywiście możliwe jest też to, że ta zależność jest dziełem przypadku.


Punkty Pucharu Świata zdobywane przez polskich skoczków


Wykres 3

Na tym wykresie czytelnie widać historyczne rezultaty poszczególnych skoczków. Na jego podstawie można spróbować rozstrzygnąć odwieczny spór i zaryzykować stwierdzenie, że jeśli chodzi o występy w PŚ to kariera Adama Małysza była bardziej okazała niż Kamila Stocha. Oczywiście nie uwzględniamy tutaj innych sukcesów skoczka z Zębu takich jak złota igrzysk olimpijskich - czegoś, czym Małysz nie może się pochwalić. Pamiętajmy też, że Stoch nie powiedział jeszcze ostatniego słowa ;)






Część 2: Jak daleko trzeba skoczyć aby wygrać zawody? - czyli analiza długości skoków w zawodach Pucharu Świata


Wstęp

Druga część projektu bazuje na autorskim zbiorze danych, o którym opowiem więcej za chwilę. Przedmiotem analizy są długości skoków w konkursach Pucharu Świata. Zacznę od wytłumaczenia o co chodzi w skokach narciarskich, a na końcu postaram się odpowiedzieć na pytanie: “jak daleko należy skoczyć w konkursie aby zająć 1 (lub inne) miejsce?”.

Skoki narciarskie to piękny sport, który generuje wiele konkretnych danych. Dane te są jednak dość trudno dostępne - w internecie brakuje zbiorów danych gotowych do prowadzenia analiz. Danych w bardzo mało przystępnej formie (np. pdfy z raportami z zawodów) trzeba szukać na stronach takich jak oficjana strona fisu.

Prawdopodobnie z tego powodu brakuje ciekwaych analiz dotyczących tej tematyki. Z ciekawych rzeczy, które udało mi się znaleźć to ta analiza Alexandra Levakova: analiza 1. I ten zbiór danych: kaggle.

Żadna z tych rzeczy nie dostaczyła jednak odpowiedzi na dręczące mnie pytania, więc musiałem przeprowadzić własną analizę.


Dane

W związku z brakiem interesujących mnie danych w łatwo dostępnej formie stworzyłem własne rozwiązanie do ich pozyskania. Za pomocą darmowego narzędzia Tabula przekonwertowałem fisowskie raporty z zawodów indywidualnych do plików csv. Następnie napisałem w R skrypt do czyszczenia tak otrzymanych danych. W ten sposób powstał prawdopodobnie największy i najkompletniejszy zbiór danych zawierających informacje o skokach jaki jest dostępny w sieci.

Obecnie zbiór danych zawiera informacje o skokach z 44 konkursów Pucharu Świata z 12 skoczni, które odbyły się w ciągu 3 sezonów.

O każdym z ponad 2 i pół tysiąca skoków dostępna jest pełna informacja w tym: imię zawodnika, odległość, noty (od każdego sędziego i sumarycznie), informacje o wietrze i belce i wiele, wiele więcej.

Zbiór łatwo można poszerzyć o kolejne rekordy za pomocą gotowych narzędzi: Tabula i przygotowanego przeze mnie skryptu R.


Jak zbudowana jest skocznia narciarska?

Przejdźmy do metirum. Skoki narciarskie to dyscyplina sportowa, w której należy skoczyć na nartach jak najdalej. Oprócz odległości otrzymuje się punkty za styl, oraz rekompensatę za wiatr. Zazwyczaj konkurs indywidualny skoków narciarskich w ramach Pucharu Świata składa się z dwóch serii. W pierwszej skacze 50 zawodników, w drugiej 30 najlepszych z pierwszej serii. Ostateczna nota jest sumą punktów z obu skoków.

Skocznia narciarska, na której rozgrywaja się zawody składa się z rozbiegu, miejsca wybicia i zeskoku- strefy lądowania.

Strefa lądowania ma dwa najważniejsze parametry - punkt K, względem którego liczy się punkty za odległość i HS - rozmiar skoczni, za którym zeskok gwałtownie się wypłaszcza i dalsze skoki są uznawane za niebezpieczne.

Budowę skoczni przedstawia poniższa grafika z wikipedii.

Obraz 1


Parametry skoczni omawianych w tym raporcie

Kod skoczni Punkt K HS Nazwa
lil 123 140 Lillehammer
ruk 120 142 Ruka
wis 120 134 Wisla
eng 125 140 Engleberg
gap 125 142 Ga-Pa
bis 125 142 Bischofshofen
zak 125 140 Zakopane
wil 130 147 Willingen
sap 123 137 Sapporo
vik 200 240 Vikersund
lah 116 130 Lahti
pla 200 240 Planica




Czy skoki w konkursie mają rozkład normalny?

Przed dalszą analizą konieczne jest zapoznanie się z rozkładem długości skoków w konkursach PŚ.

Oto histogram przedstawiający rozkład skoków w ramach przykładowego konkursu PŚ (z obu serii konkursowych):

Wykres 4

Sprawdzimy teraz czy rozkład ten jest normalny:

shapiro_result
## 
##  Shapiro-Wilk normality test
## 
## data:  df$distance
## W = 0.9909, p-value = 0.8735


Więc rozkład jest normalny.


Porównanie rozkładów długości skoków w wybranych konkursach Pucharu Świata

Wykres 5 Wykres 6

Na wykresach widać kilka ciekawych zależności. Po pierwsze widać, że rozkład zależy od tego na jakiej skoczni odbywają się zawody. Szczególnie widoczna jest różnica między zawodami na skoczniach dużych i mamucich.

W obrębie tych samych skoczni jednak również występuje zróżnicowanie. Wpływają zapewne na to warunki atmosferyczne, w kontekście których rozgrywane były poszczególne konkursy jak i to, jak zachowawczo jury ustawiło belkę.


Porównanie rozkładów długości skoków na skoczniach dużych

Wykres 7
Wykres prenentuje rozkłady długości wszystkich skoków na danym obiekcie. Skocznie posortowane są zgodnie z rosnącą średnią długością skoku.

Widać różnicę w charakterystykach skoczni. Co może zaskakiwać, największa skocznia duża - Willingen choć pozwala na najdalsze skoki wcale nie przoduje ani w średnich, ani w medianach.


Porównanie rozkładów długości skoków na skoczniach mamucich

Wykres 8
Obie porównywane skocznie mamucie mają taki sam punkt K - 200 metrów i HS - 240 metrów. Widać różnicę w charakterystyce skoczni. Loty w Vikersund mają szerszy rozkład- są bardziej zróżnicowane pod kątem uzyskiwanych odległości.

Różnica ta zapewne wynika z profili obu skoczni: w Planicy leci się wyżej nad zeskokiem, aż doleci się w okolicę punktu K, gdzie skocznia wypłaszcza się i “zbiera” zawodników. Natomiast w Vikersund profil skoczni został dobrany tak, że leci się bardzo nisko nad zeskokiem, przez co częstsze są lądowania tuż za bulą i krótkie skoki.

Widać to w słynnym filmie “wysoki” lot Piotrka Żyły prezentującym próbę tego zawodnika właśnie na mamucie w Vikersund.


Porównanie rozkładów długości skoku w konkursach na tych samych obiektach

Wykres 9 Wykres 10 Wykres 11


Znormalizowane długości skoków narciarskich

Czy różnicę w rozkładach między obiektami wynikają tylko z ich wielkości (rozumianej jako zarówno umiejscowienie punktu K, jak i HS)? Czy może od czegoś jeszcze?

Między innymi po to, żeby odpowiedzieć na to pytanie postanowiłem znormalizować długości skoków tak, aby móc je porównywać niezależnie od skoczni na jakiej miały miejsce. Wykorzystałem do tego właśnie parametry skoczni. A więc znormalizowany skok ma wartość 0, gdy był równy punktowi K i 1, gdy skoczek wylądował dokładnie w punkcie HS.

Tak prezentuje się wykres dla tak znormalizowanych rozkładów skoków z pierwszych serii konkursowych:

Wykres 12

Widać, że dalej występują różnice między obiektamim choć są one mniejsze (szczególnie w wypadku skoczni o różnym typie - mamucie vs duże).

Widać też, że znacznie większy wpływ mają inne czynniki jak warunki atmosferyczne (widać to dobrze w przypadku Zakopanego).


Czy istnieje uniwersalna receptura? Jak daleko należy skoczyć aby wygrać zawody (lub zająć n-te miejsce)?

Znormalizowane długości skoków wykorzystałem, aby odpowiedzieć na powyższe pytanie. Najpierw jednak zaprezentuję rozkład wszystkich znormalizowanych długości skoków:

Wykres 13

Za pomocą kwantyli wyznaczyłem jak daleko w normalizowanej skali (a także w przeliczeniu na kilka wybranych skoczni) trzeba skoczyć, żeby zająć n-te miejsce w zawodach (a dokładniej mówiąc w pierwszej serii konkursowej).

Miejsce Dystans Normalizowany Lahti Ruka Vikersund Wisła Zakopane
49 -1.3703209 96.81551 89.85294 145.1872 100.8155 104.4452
48 -1.0333333 101.53333 97.26667 158.6667 105.5333 109.5000
47 -0.8823529 103.64706 100.58824 164.7059 107.6471 111.7647
46 -0.7648627 105.29192 103.17302 169.4055 109.2919 113.5271
45 -0.6351515 107.10788 106.02667 174.5939 111.1079 115.4727
44 -0.5470588 108.34118 107.96471 178.1176 112.3412 116.7941
43 -0.5000000 109.00000 109.00000 180.0000 113.0000 117.5000
42 -0.4117647 110.23529 110.94118 183.5294 114.2353 118.8235
41 -0.3529412 111.05882 112.23529 185.8824 115.0588 119.7059
40 -0.3000000 111.80000 113.40000 188.0000 115.8000 120.5000
39 -0.2500000 112.50000 114.50000 190.0000 116.5000 121.2500
38 -0.2142857 113.00000 115.28571 191.4286 117.0000 121.7857
37 -0.1785714 113.50000 116.07143 192.8571 117.5000 122.3214
36 -0.1428571 114.00000 116.85714 194.2857 118.0000 122.8571
35 -0.1057143 114.52000 117.67429 195.7714 118.5200 123.4143
34 -0.0681818 115.04545 118.50000 197.2727 119.0455 123.9773
33 -0.0357143 115.50000 119.21429 198.5714 119.5000 124.4643
32 0.0000000 116.00000 120.00000 200.0000 120.0000 125.0000
31 0.0125000 116.17500 120.27500 200.5000 120.1750 125.1875
30 0.0588235 116.82353 121.29412 202.3529 120.8235 125.8824
29 0.0714286 117.00000 121.57143 202.8571 121.0000 126.0714
28 0.1071429 117.50000 122.35714 204.2857 121.5000 126.6071
27 0.1428571 118.00000 123.14286 205.7143 122.0000 127.1429
26 0.1666667 118.33333 123.66667 206.6667 122.3333 127.5000
25 0.2000000 118.80000 124.40000 208.0000 122.8000 128.0000
24 0.2142857 119.00000 124.71429 208.5714 123.0000 128.2143
23 0.2500000 119.50000 125.50000 210.0000 123.5000 128.7500
22 0.2797143 119.91600 126.15371 211.1886 123.9160 129.1957
21 0.2941176 120.11765 126.47059 211.7647 124.1176 129.4118
20 0.3333333 120.66667 127.33333 213.3333 124.6667 130.0000
19 0.3571429 121.00000 127.85714 214.2857 125.0000 130.3571
18 0.3928571 121.50000 128.64286 215.7143 125.5000 130.8929
17 0.4125000 121.77500 129.07500 216.5000 125.7750 131.1875
16 0.4333333 122.06667 129.53333 217.3333 126.0667 131.5000
15 0.4666667 122.53333 130.26667 218.6667 126.5333 132.0000
14 0.5000000 123.00000 131.00000 220.0000 127.0000 132.5000
13 0.5333333 123.46667 131.73333 221.3333 127.4667 133.0000
12 0.5625000 123.87500 132.37500 222.5000 127.8750 133.4375
11 0.5901604 124.26225 132.98353 223.6064 128.2622 133.8524
10 0.6176471 124.64706 133.58824 224.7059 128.6471 134.2647
9 0.6470588 125.05882 134.23529 225.8824 129.0588 134.7059
8 0.6818182 125.54545 135.00000 227.2727 129.5455 135.2273
7 0.7142857 126.00000 135.71429 228.5714 130.0000 135.7143
6 0.7647059 126.70588 136.82353 230.5882 130.7059 136.4706
5 0.7981818 127.17455 137.56000 231.9273 131.1745 136.9727
4 0.8409091 127.77273 138.50000 233.6364 131.7727 137.6136
3 0.8905000 128.46700 139.59100 235.6200 132.4670 138.3575
2 0.9666667 129.53333 141.26667 238.6667 133.5333 139.5000
1 1.0714286 131.00000 143.57143 242.8571 135.0000 141.0714


Co ciekawe, otrzymane wyniki pokrywają się mniej więcej z histogramem długości skoków w Lahti z początku tej części raportu.


Potencjał drzemiący w stworzonym zbiorze danych; możliwe inne analizy

Powyższa analiza długości skoków nie odpowiada na wiele pytań. Jedno z tych, które się nasuwa to to, jak warunki wietrzne wpływają na analizowane rozkłady długości skoków w zawodach PŚ i czy na przykład nie jest tak, że silny wiatr powoduje, że występuje więcej outliersów?

Stowrzony przeze mnie dataset pozwala odpowiedzieć na tego typu pytania, ale wykracza to już poza tę analizę.

Na koniec zaprezentuję tylko jeden wykres uwględniający zmienne: punkty za wiatr i noty za styl. Prezentuje on wyniki pierwszej serii jednego z konkursów w Lahti.

Wykres 14

Linki

Tutaj dam link do omawianego data setu jak go w końcu wrzucę na kaggle. Pozdrawiam i życzę miłej kawusi wszystkim czytającym ;)